Unidad 6 - Supervisión y rendimiento del sistema

6.1 Monitorización en tiempo real

La monitorización en tiempo real permite conocer el estado actual de un sistema operativo mientras está funcionando. Su objetivo es detectar problemas antes de que provoquen una caída del servicio.

Preguntas clave

¿Qué está ocurriendo ahora mismo?
¿El sistema funciona dentro de parámetros normales?
¿Existe un indicio temprano de fallo?

Elementos supervisados

Recurso	Qué se analiza
CPU	Uso, carga y procesos intensivos
RAM	Consumo y actividad swap
Disco	Latencia y operaciones E/S
Red	Tráfico, latencia y pérdida

💡 La monitorización en tiempo real es la base de cualquier SOC o NOC moderno.

⚠ Esperar a que el sistema “se caiga” para investigar suele ser demasiado tarde.

Mini-Test

1. ¿Qué permite detectar la monitorización en tiempo real?

6.2 Herramientas locales o del sistema operativo

Las herramientas locales permiten analizar una única máquina de forma inmediata. Son esenciales durante incidencias, diagnósticos rápidos y troubleshooting.

Herramientas Windows

Task Manager
Monitor de rendimiento
Resource Monitor
Event Viewer

Herramientas Linux

top
htop
vmstat
iostat
journalctl

top htop vmstat 1 iostat -x 2

Ventajas

Ventaja	Descripción
Rapidez	Diagnóstico inmediato
Disponibilidad	Incluidas en el sistema
Bajo consumo	No requieren infraestructura adicional

💡 En Linux, htop suele instalarse como herramienta básica desde el primer día.

Mini-Test

1. ¿Qué herramienta Linux muestra procesos en tiempo real?

6.3 Plataformas centralizadas de monitorización

Cuando existen decenas o cientos de servidores, la monitorización local deja de ser suficiente. Las plataformas centralizadas permiten una visión global de toda la infraestructura.

Objetivos

Centralizar métricas
Generar alertas automáticas
Crear dashboards visuales
Correlacionar eventos
Detectar anomalías rápidamente

Herramientas populares

Herramienta	Función
Nagios	Monitorización y alertas
Zabbix	Supervisión empresarial
Prometheus	Recolección métricas
Grafana	Visualización dashboards

💡 La observabilidad moderna implica medir absolutamente todo.

⚠ Sin alertas automáticas los problemas pueden pasar desapercibidos durante horas.

Mini-Test

1. ¿Qué herramienta destaca por dashboards visuales?

6.4 htop, Task Manager, Nagios y Grafana

htop

Herramienta visual de Linux para analizar procesos, CPU, RAM y carga del sistema. Permite matar procesos y ordenar consumo.

sudo apt install htop htop

Task Manager

El Administrador de tareas de Windows permite diagnosticar bloqueos, procesos excesivos y rendimiento.

Nagios

Monitoriza cientos de servidores
Genera alertas
Controla servicios de red
Supervisa SLA

Grafana

Dashboards avanzados
Alarmas configurables
Integración con Prometheus
Visualización histórica

Herramienta	Uso principal
htop	Procesos Linux
Task Manager	Procesos Windows
Nagios	Alertas centralizadas
Grafana	Visualización métricas

💡 Muchas empresas usan Grafana incluso para indicadores de negocio.

Mini-Test

1. ¿Qué herramienta se usa principalmente para dashboards?

6.5 Monitorización continuada

La monitorización continuada recopila métricas durante días, semanas o meses para detectar patrones históricos y prever problemas futuros.

Ventajas

Análisis de tendencias
Planificación de capacidad
Detección de patrones horarios
Prevención de saturaciones

Diferencia importante

Tiempo real	Histórico
Qué pasa ahora	Qué ha pasado y por qué
Diagnóstico inmediato	Análisis de tendencias

💡 Sin histórico no existe planificación seria de infraestructura.

Mini-Test

1. ¿Qué permite detectar la monitorización histórica?

6.6 CPU, RAM, Disco y Red

CPU

Un uso elevado puntual es normal. El problema aparece cuando la CPU permanece saturada durante largos periodos.

RAM

Cuando la memoria se agota, el sistema utiliza swap, mucho más lento que RAM.

Disco

La latencia de disco y las colas de E/S son claves para detectar cuellos de botella.

Red

La saturación de ancho de banda y la latencia afectan directamente a las aplicaciones.

Componente	Problema típico
CPU	Saturación prolongada
RAM	Thrashing
Disco	Latencia alta
Red	Congestión

⚠ El thrashing puede volver inutilizable un servidor aunque la CPU esté baja.

Mini-Test

1. ¿Qué ocurre durante el thrashing?

6.7 El cuello de botella oculto en el disco

Muchos problemas de rendimiento aparentemente relacionados con CPU o RAM en realidad son causados por almacenamiento lento.

Indicadores típicos

Latencia elevada
Colas E/S largas
Backups simultáneos
Indexaciones intensivas

Caso típico

Una empresa detecta lentitud diaria a las 15:00. CPU y RAM parecen normales, pero la monitorización histórica revela picos extremos de latencia de disco. El problema era un backup programado.

💡 Reprogramar backups fuera del horario laboral suele mejorar radicalmente el rendimiento.

⚠ Comprar más CPU no resuelve problemas de disco.

Mini-Test

1. ¿Qué métrica revela saturación de disco?

6.8 Consejos para Windows y Linux

Windows

Usar Monitor de Rendimiento
Guardar históricos BLG
Crear recopiladores automáticos
Supervisar Event Viewer

Linux

Usar sar y sysstat
Configurar cron para métricas
Revisar journalctl
Monitorizar swap y load average

sar -u journalctl -f journalctl -p err

Consejos generales

Consejo	Importancia
Guardar histórico	Detectar tendencias
Correlacionar métricas	Diagnósticos correctos
Monitorizar antes del fallo	Prevención

Mini-Test

1. ¿Qué comando Linux muestra logs en tiempo real?

6.9 Registro y análisis de sucesos

Los logs describen qué ha ocurrido, quién lo hizo y cuándo sucedió. Son esenciales para troubleshooting, auditoría y ciberseguridad.

Tipos de eventos

Errores
Advertencias
Accesos
Fallos autenticación
Cambios configuración

Funciones principales

Función	Objetivo
Troubleshooting	Resolver incidencias
Auditoría	Registrar actividad
Seguridad	Detectar ataques
Análisis	Identificar patrones

💡 Los logs son la “caja negra” de un sistema operativo.

Mini-Test

1. ¿Qué indican los logs?

6.10 Diagnóstico de problemas (Troubleshooting)

El troubleshooting consiste en localizar, analizar y resolver incidencias de manera estructurada.

Proceso habitual

Fase	Acción
Identificación	Detectar el fallo
Recopilación	Analizar métricas y logs
Hipótesis	Buscar causa probable
Resolución	Aplicar corrección
Validación	Comprobar estabilidad

Errores comunes

Cambiar demasiadas cosas a la vez
No guardar evidencias
No revisar logs históricos
Ignorar patrones repetitivos

⚠ Muchos problemas aparentemente complejos tienen origen en configuraciones simples.

Mini-Test

1. ¿Qué se analiza primero durante troubleshooting?

6.11 Auditoría y seguridad

Los logs de seguridad permiten reconstruir incidentes y detectar accesos sospechosos.

Eventos importantes

Login correcto
Login fallido
Cambios privilegios
Accesos denegados
Modificaciones críticas

Buenas prácticas

Práctica	Objetivo
Centralizar logs	Evitar pérdida evidencias
Conservar histórico	Auditorías
Alertas automáticas	Respuesta rápida
Normalizar eventos	Correlación eficiente

💡 Un SIEM moderno correlaciona eventos de cientos de máquinas simultáneamente.

Mini-Test

1. ¿Qué permite reconstruir un incidente?

6.12 Gestión centralizada, observabilidad e investigación

Splunk y ELK

Las plataformas modernas centralizan, indexan y analizan millones de eventos procedentes de toda la infraestructura.

ELK Stack

Componente	Función
Logstash	Recolecta y transforma logs
Elasticsearch	Indexa y almacena
Kibana	Visualización dashboards

Investigación de acceso fallido

Un usuario no podía acceder a una carpeta compartida. Los permisos parecían correctos. El Event Viewer mostró un evento 4663 indicando un token antiguo de seguridad. Tras cerrar sesión y volver a entrar, el acceso funcionó correctamente.

journalctl --since "1 hour ago" journalctl -u nginx.service

💡 Muchas incidencias se resuelven analizando correctamente los eventos registrados.

⚠ Sin centralización, investigar incidentes grandes puede ser extremadamente lento.

Mini-Test Final

1. ¿Qué componente visualiza dashboards en ELK?

2. ¿Qué ID de evento se usó en el acceso fallido?

3. ¿Qué plataforma empresarial analiza millones de logs?